研究论文
AGENTDISTILL: TRAINING-FREE AGENT DISTILLATION WITH GENERALIZABLE MCP BOXES
AGENTDISTILL:基于可泛化MCP模块的免训练智能体蒸馏
智能体蒸馏免训练MCP知识迁移小语言模型
📝
摘要概述
尽管知识蒸馏在压缩大语言模型方面已较为成熟,但针对具备规划、记忆和工具使用能力的LLM智能体的蒸馏仍处于探索阶段。现有方法依赖轨迹回放或逐步模仿,难以让学生智能体在新环境中动态决策。本文提出AGENTDISTILL,一种免训练的智能体蒸馏框架,通过教师智能体自动生成结构化、可复用的Model-Context-Protocols(MCPs)实现知识迁移。这些MCP模块被抽象、聚类并整合为MCP-Box,直接集成至学生智能体中,使其无需梯度更新即可继承复杂任务求解能力。在生物医学与数学任务上的实验表明,基于小语言模型的学生智能体性能接近使用GPT-4o的OctoTools系统,验证了该方法在构建高效、可扩展智能体方面的有效性。
📚
研究背景
当前LLM蒸馏技术主要聚焦于输出或表示对齐,而智能体蒸馏需处理更复杂的规划与工具调用行为。现有方法如轨迹模仿或子目标蒸馏,或计算成本高,或泛化能力弱,且通常依赖微调。此外,不同模型在能力与工具接口上的差异进一步限制了知识迁移效果。如何实现高效、免训练且具备强泛化性的智能体能力迁移,仍是亟待解决的问题。
🎯
主要贡献
- 提出AGENTDISTILL框架,首次通过蒸馏可复用的Model-Context-Protocols(MCPs)实现智能体能力迁移,避免了对完整轨迹的模仿。
- 实现完全免训练的蒸馏流程,无需对教师或学生模型进行微调,显著降低计算成本并提升部署效率。
- 设计MCP-Box构建机制,通过抽象、聚类与合并生成通用工具模块,增强学生智能体在跨领域任务中的泛化能力。
- 在多个复杂任务上验证了方法有效性,学生智能体性能接近强教师模型,甚至超越基于检索的工具系统。
🔧
核心方法
AGENTDISTILL的核心是将教师智能体在任务执行中生成的MCPs转化为可复用的MCP-Box。首先,教师智能体在成功解决任务时生成结构化MCP脚本。随后,通过高能力LLM对这些MCP进行三步处理:抽象化,将其重写为参数化、任务无关的通用形式;聚类,按功能语义分组;合并,将同类MCP整合为单一、健壮的通用工具。最终形成的MCP-Box作为外部工具库,在推理时直接挂载至学生智能体。学生模型在冻结状态下,通过调用MCP-Box中的工具完成复杂任务,实现能力继承而无需任何训练。
🧪
实验验证
实验在PathVQA、SLAKE和Game of 24三个基准上进行,使用GPT-3.5-turbo、Qwen3-8B和LLaMA3.1-8B作为学生模型,教师模型为Claude-Sonnet-4与GPT-4o组合。结果表明,集成MCP-Box后,学生智能体在所有任务上均有显著提升,如Game of 24上GPT-3.5-turbo准确率提升48.4%。平均性能接近教师智能体,并在PathVQA上超越OctoTools(GPT-4o)。MCP调用率高达100%,验证了其广泛适用性。
🤔
不足与展望
当前方法依赖教师智能体生成高质量MCPs,若教师在训练集外任务表现不佳,则蒸馏效果受限。MCP-Box的构建依赖外部LLM处理,可能引入抽象偏差。此外,学生智能体的高层规划能力未被迁移,仍需依赖自身推理决定工具调用。未来可探索动态扩展MCP-Box与结合轻量微调以进一步提升泛化性。
🖼️
论文图表 (5 张)
研究论文
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
绝对零点:基于零数据的强化自对弈推理
自对弈推理零数据学习强化学习代码执行器可验证奖励
📝
摘要概述
本文提出了一种名为“绝对零点”(Absolute Zero)的新型强化学习推理范式,旨在完全摆脱对人类标注数据的依赖。该方法让单一语言模型通过自对弈机制自主生成学习任务并求解,仅依靠可验证的环境反馈进行训练。作者构建了绝对零点推理器(AZR),利用代码执行器作为验证环境,支持演绎、归纳和溯因三种推理模式。实验表明,即使不使用任何外部数据,AZR在数学与编程推理任务上仍达到并超越了依赖数万条人工标注数据的现有最先进模型。该研究展示了无需人类监督即可实现通用推理能力提升的可行性,为未来超智能系统的自主学习提供了新路径。
📚
研究背景
当前大语言模型的推理能力提升主要依赖强化学习与可验证奖励(RLVR),但现有方法仍需大量人工构建的问题-答案对作为训练分布。这种依赖限制了长期可扩展性,尤其在AI可能超越人类智能的未来场景中,人类设计的任务将难以提供有效学习信号。此外,高质量数据的获取成本高昂,已成制约模型发展的瓶颈。因此,亟需一种不依赖人类标注数据、能自主演化学习任务的新型推理训练范式。
🎯
主要贡献
- 提出“绝对零点”新范式,首次实现完全无需外部数据的自对弈推理训练,摆脱对人类标注任务的依赖。
- 设计三元组任务框架(演绎、归纳、溯因),利用代码执行器提供统一的可验证反馈,实现开放域但可验证的学习。
- 提出任务相对REINFORCE++(TRR++)算法,针对多任务角色联合训练进行优势估计优化,提升训练稳定性。
- 实验证明,零数据训练的AZR在编程与数学推理上超越依赖数万条人工数据的SOTA模型,验证了自演化学习的有效性。
🔧
核心方法
绝对零点方法的核心是让一个语言模型同时扮演任务提出者(proposer)和求解者(solver)双重角色。提出者生成代码相关的推理任务(如给定程序与输入预测输出,或根据输入输出对反推程序),并通过代码执行器验证任务的有效性与确定性。求解者尝试解决这些任务,其输出由执行器验证正确性。模型通过两个奖励信号联合优化:一是“可学习性奖励”,基于求解者在提出任务上的预期提升来评估任务质量;二是“求解奖励”,根据答案正确性给予二元反馈。为支持多任务训练,提出任务相对REINFORCE++(TRR++),为六种任务-角色组合分别计算基线,实现更精细的方差缩减。
🧪
实验验证
实验在Qwen和Llama系列模型上进行,训练完全不使用任何外部标注数据。评估涵盖HumanEval+、MBPP+、LiveCodeBench等编程基准和AIME、AMC、MATH500等数学基准。结果显示,AZR-7B-Coder在综合平均分上超越所有依赖人工数据的零设定模型1.8个百分点,且在编程任务上反超0.3个百分点。消融实验表明三种推理模式均不可或缺,且模型规模越大提升越显著(14B模型提升13.2点)。跨域迁移实验显示,仅在编程任务上训练的AZR在数学任务上提升达15.2点,远超基线。
🤔
不足与展望
该方法目前依赖代码执行器作为验证环境,限制了其在非程序化领域的应用。训练过程中观察到模型可能生成具有潜在风险的思维链(如“uh-oh时刻”),表明自演化系统需加强安全对齐机制。此外,任务生成的质量和多样性仍依赖于奖励函数设计,当前的可学习性奖励可能不足以引导复杂任务的持续演化。未来需探索更通用的验证环境、安全约束机制及更智能的课程学习策略。
🖼️
论文图表 (17 张)